O recurso gmlinktolerance

O recurso gmlinktolerance monitora os tempos de resposta dos relacionamentos do Global Mirror em modo sem ciclo. É possível usar o comando da CLI chsystem ou o GUI de gerenciamento para configurar o recurso gmlinktolerance. O recurso gmlinktolerance representa o número de segundos que o sistema primário tolera tempos de resposta lentos do sistema secundário.

Se a resposta insatisfatória se estender além da tolerância especificada, um erro 1920 será registrado. Além disso, um ou mais relacionamentos de Global Mirror são automaticamente interrompidos para proteger os hosts de aplicativos no site primário. Durante a operação normal, os hosts de aplicativos observam um impacto mínimo nos tempos de resposta porque o recurso Global Mirror usa a replicação assíncrona. No entanto, se as operações de Global Mirror experimentarem tempos de resposta degradados do sistema secundário por um tempo estendido, as operações de E/S se enfileirarão no sistema primário. Essa situação resulta em um tempo de resposta estendido para hosts de aplicativos. Nesse caso, o recurso gmlinktolerance para os relacionamentos do Global Mirror e o tempo de resposta dos hosts de aplicativos retornam ao normal. Após ocorrer um erro 1920, os volumes auxiliares do Global Mirror não ficam mais no estado consistent_synchronized até que você corrija a causa do erro e reinicie os relacionamentos do Global Mirror. Por esse motivo, assegure-se de monitorar o sistema para rastrear quando esse erro ocorre.
É possível desativar o recurso gmlinktolerance configurando o valor gmlinktolerance para 0 (zero). No entanto, o recurso gmlinktolerance não poderá proteger os aplicativos de tempos de resposta estendidos se ele estiver desativado. Pode ser apropriado desativar o recurso gmlinktolerance nas seguintes circunstâncias:
  • Durante as janelas de manutenção de rede, nas quais é esperado um desempenho comprometido dos componentes de rede e os hosts de aplicativos podem resistir aos tempos de resposta dos volumes do Global Mirror.
  • Durante períodos em que os hosts de aplicativos podem tolerar tempos de reposta estendidos, é esperado que o recurso gmlinktolerance pare os relacionamentos do Global Mirror. Por exemplo, se você estiver testando usando um gerador de E/S que está configurado para estressar o armazenamento de backend, o recurso gmlinktolerance poderá detectar a alta latência e parar os relacionamentos do Global Mirror. Desativar o gmlinktolerance impede isso com o risco de expor o host de teste aos tempos de resposta estendidos.

Diagnosticando e corrigindo erros 1920

Um erro 1920 indica que um ou mais dos componentes de rede não podem fornecer o desempenho que é necessário para os hosts de aplicativos. Esse erro pode ser temporário (por exemplo, um resultado da atividade de manutenção) ou permanente (por exemplo, um resultado de uma falha de hardware ou uma carga de trabalho inesperada de E/S do host).

Se o erro 1920 foi precedido pelo evento informativo 985004, Atraso máximo de replicação foi excedido, o sistema pode não localizar um caminho para o disco no sistema remoto dentro do valor de tempo limite de atraso máximo de replicação. Investigue o sistema remoto para localizar e reparar quaisquer caminhos degradados. Também é possível usar o comando lssystem para visualizar o valor maxreplicationdelay. Se o valor for muito baixo, use o comando chsystem para especificar um novo valor de maxreplicationdelay.

Se estiverem ocorrendo outros erros 1920, configure uma ferramenta de análise, como o IBM® Spectrum Control, e certifique-se de que ele esteja configurado corretamente e as estatísticas de monitoramento quando o problema ocorrer. Configure sua ferramenta de análise de desempenho de rede para o intervalo de coleta de estatísticas mínimo disponível. Para um sistema IBM Spectrum Control, o intervalo mínimo é de 5 minutos. Se ocorrerem diversos erros 1920, faça primeiro o diagnóstico da causa do erro mais antigo. As perguntas a seguir podem ajudá-lo a determinar a causa do erro:
  • A manutenção estava ocorrendo no momento do erro?

    A manutenção pode incluir a substituição de um disco físico do sistema de armazenamento, a atualização do firmware do sistema de armazenamento ou a conclusão de uma atualização de código em um do . Antes de reiniciar os relacionamentos do Global Mirror no modo sem ciclo, deve-se esperar até que o procedimento de manutenção seja concluído. Caso contrário, outro erro 1920 será emitido porque o sistema ainda não retornou para um estado estável com bom desempenho.

  • Havia algum erro não corrigido no sistema de origem ou de destino?

    Se sim, analise-os para determinar se eles são a razão deste erro. Em particular, determine se os erros estão relacionados ao volume ou MDisks que estão sendo usados no relacionamento ou se os erros reduziram o desempenho do sistema de destino. Assegure-se de que os erros sejam corrigidos antes de reiniciar o relacionamento Global Mirror.

  • O link de longa distância está sobrecarregado?
    Se o link não for capaz de sustentar o pico de carga de trabalho de Global Mirror de curto prazo, um erro 1920 poderá ocorrer. Conclua as verificações a seguir para determinar se o link de longa distância está sobrecarregado:
    • Examine o rendimento total de gravação do volume auxiliar do Global Mirror antes de os relacionamentos do Global Mirror serem interrompidos. Se esse volume for aproximadamente igual à largura da banda do link, o link poderá estar sobrecarregado. Esse problema pode ocorrer devido a operações de E/S do host de aplicativos ou a uma combinação de E/S do host e atividades de cópia (sincronização) de plano de fundo.
    • Examine o rendimento total de gravação do volume de origem do Global Mirror antes de os relacionamentos do Global Mirror serem interrompidos. Este valor representa as operações de E/S que estão sendo concluídas pelos hosts de aplicativos. Se essas operações estiverem se aproximando da largura da banda do link, reduza as operações de E/S que o aplicativo está tentando concluir ou use o Global Mirror para copiar menos volumes. Se os discos auxiliares mostrarem significativamente mais operações de E/S de gravação do que os volumes de origem, há um alto nível de cópia em plano de fundo. Diminua o parâmetro de taxa de cópia em plano de fundo da parceria do Global Mirror para colocar a largura da banda de E/S do aplicativo total e a taxa de cópia em plano de fundo dentro das capacidades do link.
    • Examine o rendimento total de gravação do volume de origem do Global Mirror depois que os relacionamentos do Global Mirror foram interrompidos. Se o rendimento de gravação aumentar 30% ou mais quando os relacionamentos forem interrompidos, os hosts de aplicativos estarão tentando concluir mais operações de E/S do que o link pode sustentar. Embora os relacionamentos de Global Mirror estejam ativos, o link sobrecarregado faz com que haja tempos de resposta maiores para o host de aplicativos, o que diminui o rendimento que ele pode atingir. Depois que os relacionamentos do Global Mirror param, o host de aplicativos observa tempos de resposta menores. Nesse caso, a largura da banda do link deve ser aumentada, a taxa de E/S do host do aplicativo deve ser diminuída ou menos volumes devem ser copiados usando o Global Mirror.
  • Os sistemas de armazenamento no sistema secundário estão sobrecarregados?

    Se as operações de E/S do aplicativo não puderem continuar na taxa que é necessária para o host de aplicativos porque um ou mais MDisks está fornecendo serviço insatisfatório ao sistema, ocorrerá um erro 1920.

    Se os requisitos do sistema de armazenamento de backend forem seguidos, o erro poderá ocorrer devido a uma diminuição do desempenho do sistema de armazenamento. Um tempo de resposta para um MDisk maior que 50 ms ou mais repentinamente individual ou um tempo de resposta acima de 100 ms indica um problema. Conclua as verificações a seguir para determinar se os sistemas de armazenamento estão sobrecarregados:
    • Verifique o sistema de armazenamento em busca de condições de erro, como erros de mídia, disco físico com falha ou atividades associadas, como a reconstrução de RAID. Corrija quaisquer problemas e, em seguida, reinicie os relacionamentos do Global Mirror.
    • Se não ocorrer nenhum erro, determine se o sistema de armazenamento secundário pode processar o nível necessário de operações de E/S do host de aplicativos. Talvez seja possível melhorar o desempenho do sistema de armazenamento incluindo mais discos físicos em uma matriz, alterando o nível do RAID da matriz, alterando as configurações de cache do sistema de armazenamento, assegurando que a bateria de cache esteja operacional ou alterando outros parâmetros de configuração específicos do sistema de armazenamento.
  • Os sistemas de armazenamento no sistema primário estão sobrecarregados?

    Analise o desempenho do armazenamento de backend primário usando as mesmas etapas que para o armazenamento de backend secundário. Se o desempenho for ruim, limite o número de operações de E/S que podem ser concluídas pelos hosts de aplicativos. Monitore o armazenamento de backend no local primário, mesmo se os relacionamentos do Global Mirror não foram afetados. Se o desempenho ruim continuar por um período prolongado, um erro 1920 ocorrerá e os relacionamentos Global Mirror serão interrompidos.

  • Um de seus sistemas está sobrecarregado?

    Se o total dessas duas estatísticas para qualquer um dos sistemas estiver acima de 1 milissegundo, o sistema poderá estar enfrentando um carregamento de E/S alto. Além disso, verifique a utilização da CPU do nó do sistema, já que as taxas maiores que 50% também podem contribuir para o problema. Em qualquer um dos casos, entre em contato com seu Representante de serviços IBM para obter assistência adicional.

  • Você possui operações de FlashCopy no estado preparado no sistema secundário?

    Se os volumes auxiliares do Global Mirror forem as origens de um mapeamento de FlashCopy, e esse mapeamento estiver no estado preparado por um tempo estendido, o desempenho para esses volumes poderá ser impactado, pois o cache estará desativado. Inicie o mapeamento do FlashCopy para ativar o cache e melhorar o desempenho em operações de E/S do Global Mirror.